基于梯度的残差训练的方法(RESNET)通常需要输入数据的前进通过,然后将误差梯度反向传播到更新模型参数,这变得耗费网络变得更深。为了破坏前向和向后模式的算法锁定和利用同步模块并行性,辅助变量方法最近吸引了很多兴趣,但遭受了重大的沟通开销和缺乏数据增强。在这项工作中,通过交易外部辅助变量的存储和重新计算,建立了一种用于跨多个计算设备训练现实Resnet的新颖联合学习框架。更具体地,每个独立处理器的输入数据是从其低容量辅助网络(AUXNET)生成的,这允许使用数据增强并实现前向解锁。然后并行地执行后向通过,每个丢失函数源自惩罚或增强拉格朗日(AL)方法。最后,采用所提出的AUXNET通过端到端培训过程重现更新的辅助变量。我们展示了我们在CIFAR-10,CIFAR-100和Imagenet数据集中展示了我们对RESNET和WIMERESNET的效果,实现了传统的层串行训练方法的加速,同时保持了可比的测试精度。
translated by 谷歌翻译
土地遥感分析是地球科学的一个至关重要的研究。在这项工作中,我们专注于土地分析的挑战任务,即自动提取来自遥感数据的交通道路,在城市发展和扩展估计中具有广泛的应用。然而,传统方法仅利用空中图像的有限信息,或者简单地融合多峰信息(例如,车辆轨迹),因此无法识别不受约束的道路。为了促进这个问题,我们介绍了一种新的神经网络框架,称为跨模型消息传播网络(CMMPNET),其完全有益于互补的不同模态数据(即,空中图像和众包轨迹)。具体地,CMMPNET由两个深度自动编码器组成,用于模态特定的表示学习和用于跨模型表示细化的定制设计的双增强模块。特别地,全面提取和动态地传播每个模态的互补信息以增强另一个模态的表示。关于三个真实基准的广泛实验展示了我们CMMPNET对强大的道路提取的有效性,这些资务道路提取受益于使用图像和轨迹数据或图像和LIDAR数据进行混合不同的模态数据。从实验结果来看,我们观察到所提出的方法优于大型利润率的当前最先进的方法。
translated by 谷歌翻译
最近的研究表明,变压器中的注意力头不相等。我们将这种现象与多头注意力的不平衡训练以及对特定头部的模型依赖性联系在一起。为了解决这个问题,我们提出了一种简单的掩蔽方法:戴上两个特定方式。实验表明,在多种语言对上进行了翻译改进。随后的经验分析也支持我们的假设并确认该方法的有效性。
translated by 谷歌翻译
Multimodal machine translation (MMT) aims to improve translation quality by incorporating information from other modalities, such as vision. Previous MMT systems mainly focus on better access and use of visual information and tend to validate their methods on image-related datasets. These studies face two challenges. First, they can only utilize triple data (bilingual texts with images), which is scarce; second, current benchmarks are relatively restricted and do not correspond to realistic scenarios. Therefore, this paper correspondingly establishes new methods and new datasets for MMT. First, we propose a framework 2/3-Triplet with two new approaches to enhance MMT by utilizing large-scale non-triple data: monolingual image-text data and parallel text-only data. Second, we construct an English-Chinese {e}-commercial {m}ulti{m}odal {t}ranslation dataset (including training and testing), named EMMT, where its test set is carefully selected as some words are ambiguous and shall be translated mistakenly without the help of images. Experiments show that our method is more suitable for real-world scenarios and can significantly improve translation performance by using more non-triple data. In addition, our model also rivals various SOTA models in conventional multimodal translation benchmarks.
translated by 谷歌翻译
Neural machine translation(NMT) has aroused wide attention due to its impressive quality. Beyond quality, controlling translation styles is also an important demand for many languages. Previous related studies mainly focus on controlling formality and gain some improvements. However, they still face two challenges. The first is the evaluation limitation. Style contains abundant information including lexis, syntax, etc. But only formality is well studied. The second is the heavy reliance on iterative fine-tuning when new styles are required. Correspondingly, this paper contributes in terms of the benchmark and approach. First, we re-visit this task and propose a multiway stylized machine translation (MSMT) benchmark, which includes multiple categories of styles in four language directions to push the boundary of this task. Second, we propose a method named style activation prompt (StyleAP) by retrieving prompts from stylized monolingual corpus, which needs no extra fine-tuning. Experiments show that StyleAP could effectively control the style of translation and achieve remarkable performance. All of our data and code are released at https://github.com/IvanWang0730/StyleAP.
translated by 谷歌翻译
Nearest Neighbor Machine Translation (kNNMT) is a simple and effective method of augmenting neural machine translation (NMT) with a token-level nearest neighbor retrieval mechanism. The effectiveness of kNNMT directly depends on the quality of retrieved neighbors. However, original kNNMT builds datastores based on representations from NMT models, which would result in poor retrieval accuracy when NMT models are not good enough, leading to sub-optimal translation performance. In this paper, we propose PRED, a framework that leverages Pre-trained models for Datastores in kNN-MT. Better representations from pre-trained models allow us to build datastores of better quality. We also design a novel contrastive alignment objective to mitigate the representation gap between the NMT model and pre-trained models, enabling the NMT model to retrieve from better datastores. We conduct extensive experiments on both bilingual and multilingual translation benchmarks, including WMT17 English $\leftrightarrow$ Chinese, WMT14 English $\leftrightarrow$ German, IWSLT14 German $\leftrightarrow$ English, and IWSLT14 multilingual datasets. Empirical results demonstrate the effectiveness of PRED.
translated by 谷歌翻译
域适应是神经机器翻译的重要挑战。但是,传统的微调解决方案需要多次额外的培训,并产生高昂的成本。在本文中,我们提出了一种非调节范式,通过基于及时的方法解决域的适应性。具体来说,我们构建了双语短语级数据库,并从中检索相关对作为输入句子的提示。通过利用检索到的短语级提示(REPP),我们有效地提高了翻译质量。实验表明,我们的方法改善了域特异性的机器翻译,可用于6.2 BLEU分数,并改善了在没有额外训练的情况下,精度为11.5%的翻译约束。
translated by 谷歌翻译
很难精确地注释对象实例及其在3D空间中的语义,因此,合成数据被广泛用于这些任务,例如类别级别6D对象姿势和大小估计。然而,合成域中的简易注释带来了合成到真实(SIM2REAL)域间隙的下行效应。在这项工作中,我们的目标是在SIM2REAL,无监督的域适应的任务设置中解决此问题,以适应类别级别6D对象姿势和尺寸估计。我们提出了一种基于新型的深层变形网络构建的方法,该网络缩短为DPDN。 DPDN学会了将分类形状先验的变形特征与对象观察的特征相匹配,因此能够在特征空间中建立深层对应,以直接回归对象姿势和尺寸。为了减少SIM2REAL域间隙,我们通过一致性学习在DPDN上制定了一个新颖的自我监督目标。更具体地说,我们对每个对象观察进行了两个刚性转换,并分别将它们送入DPDN以产生双重预测集。除了平行学习之外,还采用了一个矛盾术语来保持双重预测之间的交叉一致性,以提高DPDN对姿势变化的敏感性,而单个的内部矛盾范围则用于在每个学习本身内实施自我适应。我们在合成摄像头25和现实世界Real275数据集的两个训练集上训练DPDN;我们的结果优于无监督和监督设置下的Real275测试集中的现有方法。消融研究还验证了我们设计的功效。我们的代码将在https://github.com/jiehonglin/self-dpdn公开发布。
translated by 谷歌翻译
在本文中,我们对亚马逊的产品评论和彻底分析模型解释性进行了句子级别情绪分析。对于情感分析任务,我们使用Bilstm模型与注意机制。对于对解释性的研究,我们认为单句子的注意力分布和主要方面术语的注意力。该模型的准确性高达0.96。我们发现,这些方面术语具有比句子中的感伤词相同或更具更多的注意力。
translated by 谷歌翻译
联邦学习对分布式数据利用率和隐私保护表达了极大的潜力。大多数现有的联合学习方法侧重于监督设置,这意味着存储在每个客户端中的所有数据都有标签。但是,在现实世界应用中,客户数据无法完全标记。因此,如何利用未标记的数据应该是联邦学习的新挑战。虽然一些研究正在试图克服这一挑战,但它们可能会遭受信息泄漏或误导性信息使用问题。为了解决这些问题,在本文中,我们提出了一种名为Fedtrinet的新型联合半监督学习方法,该方法由两个学习阶段组成。在第一阶段,我们使用带有FADVG的标记数据预先列教Fedtrinet。在第二阶段,我们的目标是使大部分未标记的数据来帮助模型学习。特别是,我们建议使用三个网络和动态质量控制机制来为未标记数据产生高质量的伪标签,该数据被添加到训练集中。最后,Fedtrinet使用新的训练设置来重新培训模型。在三个公共数据集上的实验结果表明,提出的Fedtrinet在IID和非IID设置下优于最先进的基线。
translated by 谷歌翻译